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商 要 :【 目 的 】 本 研究 旨 在 探索 使 用 计算 机 视觉 技术 实现 对 鳞 翅 目标 本 图 像 的 i 背景 分 割 方 法 。 
Ee 首先 对 用 于 训练 和 测试 的 昆虫 标本 图 像 去 除 背 景 ,获得 昆虫 图 像 的 前 背景 分 割 参 考 标准 ， 
对 过 大 的 昆 忠 图像 进行 缩小 处 理 ; 其 次 对 训练 集 图 像 采用 旋转 平移 、 缩 放 等 方法 进行 数据 增强 ,前 
切 出 中 心 区 域 作 为 有 效 图 像 。 求 取 所 有 训练 样本 的 ee 并 从 所 有 输入 中 减 去 该 均值 图 像 。 
测试 用 图 像 只 做 归 一 化 但 不 进行 数据 增强 。 微 调 全 卷 积 神经 网 络 , 重 点 调整 结构 产生 变化 的 卷 积 
层 和 反 卷 积 层 的 参数 ,用 前 述 训练 数据 集训 练 直至 收敛 。 a ie a 
入 到 训练 好 的 全 卷 积 网 络 ,网 络 将 输出 前 背景 分 割 结果 。[【 结果 】 该 方法 在 包含 823 个 样本 的 测试 

集中 进行 了 测试 ,取得 的 mloU (mean Intersection over We 达 94.96% 人 的 视觉 效果 已 经 
非常 接近 于 人 工分 割 的 结果 。【 结 论 】 实验 结果 证 明 通过 训练 全 卷 积 神经 网 络 可 以 有 效 实现 鳞 起 
目标 本 图 像 的 前 背景 自动 分 割 。 
关键 词 : 鲜 翅 目 ; 图 像 处 理 ; 前 背景 分 割 ; 深度 学 习 ; 全 卷 积 神经 网 络 
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Foreground-background segmentation of lepidopteran specimen images 


based on fully convolutional networks 
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Abstract:【 Aim 】 This study aims to realize the automatic foreground-background segmentation of 
lepidopteran specimen images by exploring the state-of-art computer vision technology. [ Methods}) First, 


the background is manually removed to form the ground truth of training set and testing set, and those 
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images that are too large are resized to smaller ones. Then the training set is enhanced by rotation ， 


translation, scaling, etc., and their central areas are cropped as valid input and target images. 


Afterwards ，the mean image of all the training samples is calculated and subtracted from all input images. 


Testing images are simply normalized but not enhanced. Fully convolutional networks (FCNs) are fine- 


tuned with training set until they converge. The parameter adjustment on later convolutional layers and 


de-convolutional layers is emphasized since their structures are different from those of original immigrated 


FCNs. When one given insect image is fed into the trained FCN after normalization, the segmentation 


result will be given. 【 Results)] The proposed method was evaluated with the testing set including 823 


samples, and the final mloU (mean Intersection over Union) was as high as 94.96%. The visual effect 


of segmentation results given by FCN was much close to the manually produced results. 【 Conclusion 】 


The experimental results prove that the foreground-background of lepidopteran specimen images can be 


segmented efficiently by the trained FCN. 


Key words: Lepidoptera; image processing; foreground-background segmentation; deep learning; fully 


convolutional network (FCN) 


鳞 刻 目 是 昆虫 纲 的 第 二 大 目 ,在 全 地 界 已 知 的 
就 有 20 万 种 之 多 ,多 数 鳞 翅 目 昆虫 幼虫 取 食 植物 叶 
肉 .或 性 食 树 干 \ 树 皮 、 树 根 , 为 农业 上 的 主要 害虫 之 
一 ,也 有 少数 种 类 如 和 蛋 \ 梓 乍 等 是 有 益 于 人 类 的 经 济 
昆虫 。 昆 虫 学 的 研究 .害虫 防治 .生物 防治 和 植物 检 
疫 都 离 不 开 对 昆虫 种 类 的 准确 鉴定 。 鳞 怒 目 昆虫 的 
口 带 、 翅 脉 、 触 角 、 妈 面 鳞片 的 颜色 纹理 特征 、 甚 至 昆 
虫 的 生殖 需 官 结构 等 均 是 它们 分 类 的 重要 依据 。 然 
而 对 昆虫 种 类 的 人 工 鉴定 是 一 项 耗 时 、 代 价 高 昂 且 
必须 由 经 过 长 期 培训 的 专业 人 员 才 能 完成 的 工作 。 
Weeks 等 (1999) 在 20 世纪 90 年 代 便 推出 了 基于 昆 
虫 形态 学 和 分 子 数据 的 昆虫 自动 种 类 鉴定 系统 
DAISY (digital automated identification system ) 。 在 
昆虫 图 像 自 动 种 类 识别 过 程 中 ,对 昆虫 主体 的 有 效 
分 割 , 可 以 避免 背景 中 所 包含 的 颜色 纹理 等 信息 对 
分 类 结果 产生 干扰 。 在 国外 ,Patil 和 Hegadi (2009 ) 
提出 了 一 种 基于 sobel 边缘 检测 的 棉花 害虫 图 像 分 
割 方法 ;Sangari 等 (2016 ) 提出 了 基于 蚁 群 算法 (ant 
colony optimization ，ACO ) 和 改进 的 粒子 群 优 化 算法 
(particle swarm optimization ，PSO ) 的 昆虫 图 像 分 割 
算法 ,用 于 分 割 图 像 中 的 粉 融 、 蚜 虫 等 微小 昆虫 ; 
Mele(2013 ) 提出 基于 全 局 阔 值 与 局 部 种 子 区 域 生 
长 法 相 结合 的 昆虫 图 像 分 割 方法 ,但 仅 适 用 于 背景 
颜色 固定 且 均 匀 单 一 的 图 像 。 在 国内 ,针对 昆虫 彩 
色 图 像 的 前 背景 自动 分 割 方法 有 刘 晓 静 等 (2008 ) 
提出 的 基于 静态 图 像 压 缩 标准 分 割 算 法 . 黄 世 国 等 
(2008 ) 提出 的 快速 几何 可 变形 彩色 图 像 分 割 方法 、 
程 小 梅 等 (2009 ) 通过 最 大 期 望 算法 迭代 出 混合 高 
斯 模型 的 图 像 分 割 方法 . 兰 红 和 王政 (2014 ) 提出 的 































































































结合 过 渡 区 的 多 元 线性 回归 昆虫 图 像 分 割 方法 等 。 

近年 来 ,计算 机 软 硬 件 技术 发 展 迅 速 ,更 快 .更 
高 效 的 硬件 满足 了 深度 学 习 对 运算 能 力 的 需求 , 促 
使 “复杂 ”的 深度 学 习 不 断 取 得 突破 。 深 度 卷 积 神 
经 网 络 ( deep convolutional neural network，DNN ) 将 
特征 提取 与 分 类 自然 地 融合 从 而 得 到 一 个 端 到 端的 
分 类 框架 (Krizhevsky et al., 2012)。 其 权 值 共享 的 
网 络 结构 不 仅 极 大 地 降低 了 模型 复杂 度 , 而 且 模 拟 
了 基于 神经 元 反应 的 视觉 系统 ,有 较 强 的 模型 泛 化 
能 力 。Shelhamer 等 (2017) 将 AlexNet ( Krizhevsky et 
al.，2012 ) 和 VGG16 ( Simonyan and Zisserman ， 
2015 ) 等 提出 的 分 类 网 络 改 成 了 全 卷 积 网 络 并 将 分 
类 网 络 的 学 习 参 数 迁 移 到 语义 分 割 任务 中 。 本 文 参 
考 该 语义 分 割 全 卷 积 网 络 结构 ,对 深度 学 习 框 架 应 
用 于 昆虫 图 像 前 背景 分 割 进行 研究 ,将 前 背景 分 割 
转化 为 像素 级 的 二 分 类 问题 ,通过 训练 和 学 习 ,深度 
卷 积 神经 网 络 将 能 很 好 地 根据 输入 的 RGB (red 
green blue) 图 像 将 所 有 像素 划分 为 前 景 和 背景 两 
类 ,最终 完成 前 背景 分 割 的 任务 。 









































1 材料 与 方法 


1.1 鳞 怒 目 昆虫 图 像 采集 与 准备 

本 文 所 用 到 的 昆虫 图 像 均 为 鳞 怒 目标 本 图 像 ， 
由 中 国 林业 科学 研究 院 森 林 生 态 与 保护 研究 所 、 东 
北林 业 大 学 林学 院 .西南 林业 大 学 保护 生物 学 学 院 、 
北京 林业 大 学 林学 院 、 南 京 林业 大 学 林学 院 、 西 北 农 
林 科 技 大 学 林学 院 等 单位 联合 采集 .制作 并 拍摄 ,一 
共 包 含 64 类 合计 3 823 个 鳞 翅 目标 本 图 像样 本 。 
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图 1 为 该 数据 集中 的 部 分 原始 图 像样 本 。 从 图 1 可 
知 该 数据 集中 背景 的 颜色 包括 红 、 蓝 \ 米 . 灰 蓝 、 灰 
绿绿 等 6 种 不 同色 调 ( 图 1: A -F) ,大 部 分 是 带 标 
本 标签 的 纯色 背景 (图 1: A -EE) , 少 部 分 不 带 标本 
标签 (图 1: 了 ) ,少量 样本 背景 包括 两 种 以 上 颜色 
(图 1: G, 日 ) ,还 有 少量 背景 有 明显 的 阴影 (图 1: 
F) 或 前 背景 颜色 非常 接近 的 样本 (图 1: C)。 所 有 
的 样本 都 用 手动 方式 去 除了 背景 并 统一 把 背景 填充 
为 黑色 (如 图 2: B), 并 自动 生成 二 值 索 板 (图 2: 
C) 作 为 训练 卷 积 神经 网 络 (convolutional neural 














network ，CNN ) 的 目标 图 像 。 为 了 方便 输入 到 卷 积 
神经 网 络 中 进行 训练 和 测试 ,我 们 将 所 有 的 昆虫 图 
像样 本 的 大 小 进行 了 归 一 化 处 理 : 首 先 对 图 2 (C) 
所 示 的 前 景 求 取 最 小 包 于 盒 (图 2: D) ,将 该 包围 盒 
的 长 边 ! 与 224 进行 比较 , 若 !>224, 则 按 比例 因子 
s =224/1l 对 原 图 和 前 景 绽 板 图 进行 等 比例 缩小 , 否 
则 不 变 , 然 后 以 包围 盒 为 中 心 , 剪 切 出 原始 彩色 图 像 
和 目标 前 背景 二 值 图 像 中 300 x300 大 小 的 区 域 (图 
3) 。 在 整个 数据 集中 随机 选择 3 000 个 样本 作为 训 
练 集 ,剩余 的 823 个 样本 作为 测试 集 。 


























图 1 不 同 背景 


目标 本 图 像 示 例 





Fig. 1 Samples of lepidopteran specimen images with different background colors 
A; 红色 Red; B: 蓝 色 Blue; C: 灰 绿 Grey-green; D: 灰 蓝 Grey-blue; E; 绿色 Green; 『:; 米色 Beige; G, H: 红 蓝 两 色 Red and blue. 
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2 数据 预 处 理 示 例 
Fig. 2 Demonstration for data preprocessing 
A: 原 图 Original image; B: 去 除 背 景 图 像 Image with background removed; C: 前 景 蒙 板 Foreground mask; D: 最 小 包围 盒 Minimum bounding box 


of foreground. 














3 ” 归 一 化 后 的 原 图 和 目标 图 











Fig. 3 Normalized image and target 
A: 原 图 Origin image; B: 目标 图 Target image. 


1.2 训练 样本 的 数据 增强 
由 于 CNN 有 上 千 万 的 参数 ,即使 对 网 络 进行 微 
调 ,也 需要 足够 数量 的 训练 样本 以 防止 产生 过 拟 合 











现象 ,本 文中 总 的 训练 样本 只 有 3 000 个 ,需要 通过 
数据 增强 的 方式 获得 足够 数量 的 训练 样本 ,数据 增 
强 方式 如 下 : 

A. 平移 :将 输入 和 目标 图 像 向 左上 、 右 上 、 左 
下 \ 右 下 4 个 方向 平移 8 个 像素 ,加 上 未 平移 原 图 ， 
裁剪 出 中 心 的 256 x 256 区 域 保存 后 每 图 像 得 到 5 
个 不 同 副本 ; 

B. 旋转 :将 输入 和 目标 图 像 旋转 rs[ -5°， 
5°] , 裁剪 出 中 心 的 256 x256 区 域 保存 ; 

C. 缩放 :将 输入 和 目标 图 像 按 比 例 因子 ; s 
[0. 85 ,1 ] 进 行 缩小 ,裁剪 出 中 心 的 256 x 256 区 域 
保存 ; 
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D. 颜色 抖动 :将 输入 图 像 的 RGB 颜色 值 统一 
用 因子 ce 10.8, 1.2] 相 乘 ,并 将 超过 255 的 值 设置 
为 255 以 避免 洪 出 失真 ,裁剪 出 输入 和 目标 图 像 中 
心 的 256 x256 区 域 保存 ; 

E. 水 平 镜像 :将 A 中 的 未 平移 副本 、B、C.D 的 
输入 和 目标 以 50% 的 概率 进行 水 平 镜 像 。 

上 述 数 据 增强 操作 A, B, C 和 D 4 个 步骤 是 同 
时 混合 进行 的 , 经 过 数据 增强 后 训练 集 扩充 为 
30 000 个 256 x256 大 小 的 样本 ,对 所 有 训练 样本 的 
输入 图 像 求 平 均 , 即 将 所 有 图 像 对 应 通道 对 应 位 置 
的 像素 值 求 和 后 除 以 图 像 总 数 ,得 到 256 x256 大 小 
的 三 通道 均值 图 像 ,并 从 所 有 训练 样本 的 输入 中 减 
去 对 应 像素 位 置 的 均值 。 为 了 使 网 络 在 训练 过 程 中 
能 逐渐 收敛 ,避免 损失 大 起 大 落 , 需 要 保证 在 每 一 批 
训练 数据 中 各 类 的 样本 均衡 分 布 ,因此 对 数据 进 一 
步 作 了 置 乱 处 理 形成 最 后 的 训练 集 。 

对 于 测试 数据 , 则 不 需要 数据 增强 ,我们 只 是 简 
单 地 将 测试 数据 的 输入 和 目标 裁剪 出 中 心 的 256 x 
256 区 域 ,并 从 输入 图 像 减 去 训练 样本 均值 。 
1.3 ”FCN 网 络 结构 

本 文 所 使 用 的 FCN 是 对 Shelhamer 等 (2017 ) 提 
出 的 语义 分 割 全 卷 积 网 络 的 微调 , Shelhamer 等 将 
AlexNet ( Krizhevsky et al., 2012) 和 VGG16( Visual 
Ceometry Group 16-layer) (Simonyan and Zisserman, 
2015 ) 等 CNN 中 的 全 连接 层 全 部 用 卷 积 层 代替 ,这 
样 做 的 好 处 是 :一 方面 可 以 降低 网 络 参数 的 数量 ， 
为 卷 积 核 在 同一 层 中 可 以 共享 ; 男 一 方面 ,全 卷 积 风 
络 对 输入 图 像 的 大 小 不 敏感 ,不 像 传统 的 CNN 只 能 





















































化 , 则 需要 重新 训练 网 络 。 

本 文 所 微调 的 第 一 个 网 络 为 FCN-AlexNet, 网 
络 结构 如 图 4 所 示 。 从 图 4 知 该 网 络 的 前 几 层 结构 
与 AlexNet 完全 相同 ,但 其 中 的 全 连接 层 用 卷 积 层 
替代 了 ,从 Convl 到 Conv7 的 网 络 参 数 与 Shelhamer 
等 提出 的 FCN-AlexNet 完全 相同 ,参数 值 可 从 预 训 
练 的 FCN-AlexNet 迁移 过 来 ;Conv8 及 随后 的 反 卷 积 
层 参数 则 从 头 开始 训练 ,设置 相对 大 的 学 习 率 。 
Conv8 之 后 的 反 卷 积 层 卷 积 核 大 小 为 63 , 步 长 32， 
可 将 9 x9 的 输入 上 采样 至 319 x319 ,然后 通过 crop 
层 根据 原 图 尺寸 和 偏 移 量 参数 裁剪 至 与 原 图 同样 大 
小 后 输出 。 本 文 所 实现 的 FCN 是 基于 CAFFE 
( convolutional architecture for fast feature embedding) 
框架 (Jia et al.，2014) 的 。 开 始 时 ,从 Convl 到 
Conv7 的 学 习 率 均 设 置 为 0.001 ,第 8 个 卷 积 层 权 值 
的 学 习 率 为 0.1 , 偏 移 量 的 学 习 率 为 0.2, 反 卷 积 层 
(Deconv ) 学 习 率 为 0.1 ,此 后 学 习 率 按 每 1 000 轮 选 
代 调 整 为 上 一 轮 的 0.7 ,训练 数据 的 batch_size 为 
32 ,测试 数据 的 batch_size 为 16。 网 络 最 终 输 出 的 
两 个 通道 值 是 每 像素 属于 背景 和 前 景 的 概率 ,将 各 
像素 归 类 为 概率 大 的 那 一 类 即 可 得 到 前 背景 分 割 结 
果 。 训 练 时 损失 函数 计算 采用 softmaxWithLoss 
(Bishop ，2006 ) ,其 计算 公式 如 下 : 


已 在 
/oss = 之 1og SR (1) 
其 中 必 为 输出 结果 的 总 像素 个 数 ,而 取决 于 目标 
图 像 中 该 像素 的 归属 ,属于 前 景 取 1, 属 于 背景 则 取 
0。 训 练 进行 了 10 000 轮 迭 代 后 网 络 收敛 ,训练 























































































































限制 于 处 理 同样 大 小 的 输入 ,如 果 输 入 大 小 产生 变 结束。 
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Output segmentation result 
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图 4 本 研究 微调 的 FCN-AlexNet 网 络 结 构 (Shelhamer et al., 2017) 
Fig. 4 The network structure of FCN-AlexNet (Shelhamer et al., 2017) fine-tuned in this study 
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本 文 所 微调 的 另 一 个 FCN 是 基于 VGG16 的 ， 
网 络 结构 如 图 5 所 示 。 图 中 从 Conv14 到 Conv16 3 
个 卷 积 层 在 原生 的 VGG16 网 络 中 是 全 连接 层 , 此 处 
改 为 卷 积 层 ,从 而 起 到 减少 参数 数量 和 对 输入 图 像 
大 小 不 敏感 的 作用 。 该 网 络 除 了 从 最 后 的 输出 得 到 
分 制 结果 外 ,还 从 Conv7 及 Conv10 之 后 分 别 引 出 分 
支 来 进一步 细 化 前 背景 分 割 的 边缘 细节 。 卷 积 神经 
网 络 的 低层 输出 包含 局 部 细节 特征 ,而 高 层 的 感受 
野 更 大 ,反映 的 是 全 局 特征 ,低层 特征 的 引入 将 使 最 
终 的 输出 细节 更 丰富 。 整 个 网 络 从 Convl 到 
Conv15 这 15 个 卷 积 层 的 整体 结构 与 Shelhamer 等 
(2017) 提出 的 基于 VGG16 的 语义 分 割 全 卷 积 网 络 




































































相同 ,这 部 分 网 络 参 数 可 以 从 Shelhamer 等 提出 的 
FCN 迁移 过 来 ,但 Conv16, Conv B1，Conv B2 以 及 
所 有 的 反 卷 积 层 的 参数 则 要 从 头 训练 ,并 设置 较 大 
的 学 习 率 。 训 练 和 测试 数据 的 batch_size 均 为 4, 基 
础 学 习 率 为 0. 001 ,学 习 率 按 每 8 000 轮 迭 代 调 整 为 
上 一 轮 的 0.7, 从 Convl 到 Conv15 的 学 习 率 均 设 置 
为 0.01 ,Conv16 ，Conv Bl 和 Conv B2 卷 积 层 和 反 卷 
积 层 的 学 习 率 为 1, 偏 移 量 的 学 习 率 为 2。 网 络 最 终 
输出 的 两 个 通道 值 是 每 像素 属于 背景 和 前 景 的 概 
率 , 将 各 像素 归 类 为 概率 大 的 那 一 类 即 可 得 到 前 背 
景 分 割 结果 。 训 练 进行 80 000 轮 和 迭代 网 络 趋 于 收 
敛 后 结束 。 



















































































Output segmentation result 
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图 5 本 研究 微调 的 FCN-VGG16 网 络 结 构 (Shelhamer et al., 2017) 
Fig. 5 The network structure of FCN-VGG16 (Shelhamer et al., 2017) fine-tuned in this study 


1.4 分 割 结果 的 评价 标准 
我 们 用 IoU (Intersection over Union ) 来 衡量 分 











割 结果 的 优 劣 ,IoU 的 计算 公式 如 下 : 
门 RINR TP 
OU RR RR 2) 





如 对 前 景 像素 而 言 , R 为 参考 标准 ( ground 
truth ) 的 前 景区 域 ,R' 为 预测 的 前 景区 域 , 则 IoU 是 
在 两 区 域 中 均 出 现 的 像素 个 数 与 两 区 域 合 并 后 的 
区 域 总 像素 个 数 的 比值 ,也 即 真 阳 (true positive， 
TP) (实际 为 前 景 也 预测 为 前 景 ) 像素 个 数 与 真 阳 、 
假 阳 (false positive，FP) (实际 为 背景 而 预测 为 前 
景 ) 和 假 阴 (false negative, FN) (实际 为 前 景 而 预测 
为 背景 ) 像素 和 的 比值 ,背景 的 IoU 也 可 用 类 似 方法 
计算 , 前 背景 的 IoU 平均 后 得 到 mloU (mean 








Intersection over Union ) 。 
士 
2 结果 


2.1 分 割 效 果 的 定量 评价 

上 述 方法 在 装 有 Ubuntu 系统 的 PC 机 上 实现 ， 
CPU 为 Intel Core 17-7700 2.8 GHz ,内 存 为 16 GB， 
GPU 为 NVIDIA GeForce GTX 1060， 显 存 为 6 GB。 
FCN 用 CAFFE 框架 实现 ,训练 和 测试 均 使 用 CPU 
来 提高 性 能 。 我 们 创建 的 图 像 库 中 包含 64 类 鳞 却 
目 昆虫 ,每 类 昆虫 有 20 ~285 个 不 同 图 像样 本 ,合计 
3 823 个 样本 。 作 为 比较 ,我 们 也 将 GrabCut 算法 
( Rother et al., 2004) 的 前 背景 分 割 结果 进行 了 统计 
和 展示 ,使 用 GrabCut 算法 时 ,需要 指定 一 个 矩形 
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框 ,使 得 前 景 像素 完全 处 于 框 内 ,而 框 外 像素 则 完全 
是 背景 ,我 们 把 这 个 框 默 认 设置 成 输入 图 像 中 心 
224 x224 的 区 域 ,因为 我 们 在 数据 准备 时 ,已 经 把 
前 景 的 区 域 通过 缩放 限制 在 224 x 224 大 小 的 中 心 
区 域 。 

表 1 是 本 文 所 采用 的 FCN-AlexNet，FCN- 
VGG16 及 GrabCut 在 测试 集 上 进行 前 背景 分 割 的 结 
果 统 计 与 比较 。 从 表 中 数据 可 知 ,对 于 鳞 友 目 昆 虫 
前 背景 分 割 任务 而 言 ,全 卷 积 网 络 的 分 割 效果 要 远 
优 于 GrabCut, 这 一 结果 还 是 容易 被 理解 和 接受 的 ， 
因为 GrabCut 是 一 种 广 谱 的 前 背景 分 割 算法 ,而 全 
卷 积 网 络 则 专门 针对 鳞 翅 目 昆 虫 标本 图 像 进 行 了 参 
















































































训练 时 间 FCN-AlexNet 只 需 2.6 h,FCN-VGG16 则 
需要 16 h, 而 对 单 张 图 像 的 一 次 分 割 在 CPU 上 
FCN-AlexNet 只 需 15 ms 左右 ,而 FCN-VGG16 需要 
57 ms 左右 。 表 中 也 给 出 了 分 割 单 张 图 像 如 果 完 全 
用 CPU 实现 , FCN-AlexNet 需要 1. 032 s, FCN- 
VGG16 需要 6.9 s,GrabCut 则 需要 0.533 s( GrabCut 
不 是 本 文 的 研究 目标 ,因此 未 实现 GPU 版 本 ) ,由 此 
可 见 , 在 深度 学 习 框架 中 ,GPU 扮演 着 很 重要 的 角 
色 ,GPU 使 得 深度 学 习 网 络 的 训练 和 使 用 性 能 提高 
成 百 上 千 倍 ,从 而 也 促使 深度 学 习 实 践 和 应 用 发 展 
迅猛 。 

表 2 给 出 了 用 FCN-VGG16 做 分 制 时 按 不 同 背 























数 调 优 , 使 各 项 参数 特别 适合 于 鳝 翅 目 昆虫 标本 图 
像 的 前 背景 分 制 。 表 1 同时 给 出 了 FCN 在 3 000 个 
训练 样本 上 和 823 个 测试 样本 上 的 分 割 结果 比较 ， 
训练 集 上 的 IoU 略 高 于 训练 集 ,既然 网 络 是 基于 训 
练 集 数 据 进行 参数 调 优 的 , 分割 结果 优 于 测试 集 也 
是 意料 之 中 的 ,但 测试 集 上 的 IoU 已 经 非常 接近 训 
练 集 ,说 明 网 络 已 经 获得 了 比较 理想 的 泛 化 能 

此 外 ,我 们 也 从 表 1 数据 可 知 ,FCN-VGG16 的 分 御 
效果 要 优 于 FCN-AlexNet, 这 是 因为 FCN-VGG16 的 
网 络 更 深 ( 卷 积 层 多 达 18 层 ,FCN-AlexNet 只 有 8 
层 ) ,模型 更 复杂 (参数 多 达 134 兆 ,FCN-AlexNet 为 
57 兆 ) ,并 且 FCN-VGG16 还 从 低层 特征 引入 了 多 尺 
度 信息 ,使 得 最 后 的 分 割 结果 细节 更 丰富 。 当 然 复 
杂 模 型 的 代价 也 是 显著 的 ,同样 训练 数据 跑 10 趟 的 













































































景 颜色 和 复杂 度 所 做 的 分 类 统计 结果 ,从 表 2 可 知 ， 
红 \ 绿 、 蓝 、 灰 蓝 、 灰 绿 这 儿 种 颜色 的 mIoU 大 致 相 
当 , 分 布 在 平均 值 附近 ,而 米色 背景 的 mloU 明显 低 
于 其 他 颜色 ,这 是 因为 米色 背景 的 训练 样本 总 共 只 
有 30 多 个 ,其 他 颜色 都 至 少 有 几 百 个 ,在 整个 训练 
集中 数量 明显 低 于 其 他 背景 颜色 样本 , 而 且 米 色 背 
景 的 样本 部 分 带 阴 影 , 因 为 网 络 无 法 对 这 些 情 况 进 
行 充分 学 习 导 致 分 割 性 能 低 于 其 他 背景 颜色 的 样 
本 ;同时 ,从 表 2 可 知 ,虽然 带 标 签 的 mloU 略 低 于 
无 标签 的 ,样本 的 背景 带 标签 .不 带 标签 、 多 色 ( 指 
背景 非 纯色 ) 统 计 得 到 的 mIoU 大 致 相当 ,说 明 只 要 
训练 样本 足够 丰富 ,网 络 还 是 能 够 学 会 在 相对 复杂 
的 背景 中 分 辨 出 前 景 主体 。 












































表 1 FCN-AlexNet, FCN-VGG16 及 GrabCut 的 结构 性 能 比较 
Table 1 Structure and performance comparison among FCN-AlexNet, FCN-VGGI16 and GrabCut 


前 景 IoU(% 


) mloU 





单 次 分 割 时 间 Time to segment one image (ms) 





训练 时 间 (h) 














Foreground IoU (%) GPU CPU Training time 

FCN-AlexNet 训练 集 Training set 89.261 93.132 15 1 032 2.6 
测试 集 Testing set 87.907 92. 187 

FCN-VGG16 训练 集 Training set 92.229 95.050 S37 6 900 16 
测试 集 Testing set 92. 134 94. 955 

GrabCut 71.445 80.246 533 
loU: Intersection over Union; mloU : Mean Intersection over Union. 
表 2 按 背 景 颜 色 和 复杂 度 分 类 统计 结果 
Table 2 Statistics according to different background colors and complexities 
背景 颜色 或 复杂 度 绿色 ” 蓝 色 红色 灰 蓝 灰 绿 米色 带 标签 无 标签 多 色 














Background color or complexity Green Blue Red 


Grey-blue Grey-green 











Beige With label Without label Multi-colors 





mloU (%) 94.01 95.23 


95.04 


95.15 


95.25 91.36 94.79 95.63 95.41 
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2.2 分 割 方法 的 定性 分 析 

图 6 给 出 了 测试 集中 4 个 样本 3 种 前 背景 分 制 
结果 的 定性 比较 ,图 中 ,第 1 列 为 输入 的 RGB 彩色 
图 像 ,第 2 列 为 人 工 去 除 背 景 后 的 参考 标准 图 像 ,第 
3 列 为 根据 FCN-AlexNet 预测 结果 去 除 背 景 后 的 图 
像 , 第 4 列 为 根据 FCN-VGG16 预测 结果 去 除 背 景 后 
的 图 像 , 第 5 列 为 用 GrabCut 算法 去 除 背 景 后 的 图 
像 ; 图 6 (A) 和 (B) 是 对 大 小 为 256 x256 的 图 像 处 
理 结果 ,图 6(C) 是 对 227 x227 大 小 图 像 的 处 理 结 








果 , 图 6(D) 是 对 224 x224 大 小 图 像 的 处 理 结果 。 
综 上 所 述 , 使 用 FCN-VGG16 能 很 好 地 分 割 出 鳞 翅 
目标 本 图 像 的 前 背景 区 域 ,分 割 的 结果 甚至 通 近 人 
工 操作 结果 ,在 GPU 上 50 ms 的 处 理 速 度 也 非常 让 
人 满意 ;如 果 要 求 不 高 ,用 FCN-AlexNet 也 能 大 致 把 
产生 干扰 的 背景 去 除 , 处 理 速 度 要 高 于 FCN- 
VGG16。 从 图 6 (C, D) 也 可 知 , 网 络 对 输入 图 像 大 
小 的 变化 不 敏感 。 




















图 6 鳝 翅 目标 本 图 像 前 背景 分 割 结果 的 定性 比较 
Fig. 6 Qualitative comparison of foreground-background segmentation results for lepidopteran specimen images 
从 左 到 右 依 次 为 原 图 ,人 工分 割 结果 ,FCN-AlexNet 的 结果 ,FCN-VGG16 的 
the results of manual segmentation, FCN-AlexNet, FCN-VGG16 and GrabCut algorithm, respectively. 图 像 大 小 Image size: A, B: 256 x256; C: 227 
x227; D: 224 x224. 








3 讨论 与 结论 


本 文 提出 了 一 种 全 新 的 鳞 翅 目标 本 图 像 的 前 背 
景 分 割 方法 ,从 而 可 以 自动 去 除 所 拍摄 的 鳞 翅 目 昆 
虫 标 本 图 像 中 的 背景 ,消除 背景 对 昆虫 图 像 的 识别 
或 分 析 所 造成 的 干扰 。 本 文通 过 微调 全 卷 积 网 络 
FCN-AlexNet 和 FCN-VGG16 实现 对 昆虫 图 像 的 前 
背景 分 割 ,用 3 000 个 样本 通过 数据 增强 形成 包含 

















结果 ,GrabCut 算法 的 结果 。From left to right are the original image and 


30 000 个 样本 的 训练 集 , 用 823 个 测试 样本 进行 评 
佑 ,并 与 GrabCut 算法 进行 了 对 比 。 评 佑 结果 表明 ， 
微调 得 到 的 FCN-VGG16 在 本 文中 的 前 背景 分 割 任 
务 取 得 的 精度 最 佳 ,FCN-AlexNet 的 分 割 精 度 略 低 
但 时 间 性 能 较 佳 ,而 GrabCut 虽然 适用 面 广 ,但 不 能 
很 好 地 去 除 背 景 中 的 干扰 因素 ,在 本 文 数据 集 上 的 
分 割 结 果 较 为 粗糙 。 本 文中 所 取得 的 成 果 , 结合 科 

者 前 几 年 在 昆虫 种 类 自动 识别 上 所 做 工作 ,可 以 使 
鳞 翅 目 昆 虫 的 种 类 的 识别 整个 流程 真正 实现 全 自 
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动 , 把 人 类 从 繁杂 的 手工 操作 中 解放 出 来 。 下 一 步 
的 研究 方向 是 把 昆虫 的 前 背景 分 割 与 种 类 鉴定 整合 
成 一 个 大 的 CNN 网 络 ,从 原始 拍摄 图 像 通过 一 个 端 
到 端的 系统 实现 识别 而 识别 精度 不 产生 明显 下 降 。 
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